Spark 3.0 自适应查询执行

1 背景

基于运行时统计的，查询执行时的，动态查询优化。

Spark 2.2引入CBO，通过输入大小和基数估计选择最佳的执行计划。

基于成本的优化CBO经常受限：

AQE的所有优化基于准确的运行时统计信息。

AQE优化发生在阶段间隙，此时数据容量、分区大小等统计信息可用。

AQE关闭时，分区数是固定的，但是在查询执行时数据量确实变化的。

过大的分区导致GC压力和磁盘溢出，过多的分区导致低效I/O、调度和任务创建负载过高

注意：上图数据流自下而上

当关联的其中一个表可以放入内存时，Spark选择Broadcast Hash Join。

但是由于估计依赖于统计值。在AQE之前，统计值不能准确评估基数或选择性估计；子关系是复杂的操作树；存在UDF等黑箱预测等。

使用运行时的数据大小重新规划关联。

注意：上图中根据运行时的数据大小数据，将SORT MERGE JOIN转换为BROADCAST HASH JOIN

数据倾斜导致性能丢失，延长了作业执行时间，尤其是大分区导致的数据溢出。

使用运行时统计信息自动处理数据倾斜

17:14